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СОНЕЯ — СИСТЕМА ОТЛАДКИ ПРОГРАММ, ОСНОВАННАЯ 
НА ПРИМЕНЕНИИ ОГРАНИЧЕННОГО ЕСТЕСТВЕННОГО ЯЗЫКА 


А. М. Белякин, С. Ф. Занько, В! И. Медведев, В.Н. Яхонтов 


Описывается система отладки программ, входной язык которой 
является подмножеством русского языка, а результат представляет 
собой текст на формальном языке отладки. 


Система отладки на естественном языке (СОНЕЯ) предназначена для 
перевода описания алгоритма отладки программ, заданного на подмно- 
жестве русского языка, в отладочную программу на языке Тестран М-220 
[1] в режиме пакетной обработки. Язык отлаживаемых программ — 
Автокод БМ-4/220 [2]. СОНЕЯ, таким образом, является транслятором 
с ограниченного естественного языка на язык программирования и в этом 
отношении похожа на систему программирования СЕМТЕ [3], которая 
транслирует с английского на Фортран. СОНЕЯ разработана для лиц, 
занимающихся отладкой, но не имеющих навыков работы с языком Тест- 
ран. Поэтому ее можно рассматривать и в качестве тренажера для обуче- 
ния навыкам практического владения Тестраном. 

Подмножество русского языка, понятное для системы, позволяет легко 
описывать отладочные услуги в пределах компетенции Тестрана, так как 
содержит полный набор понятий и действий, адекватно отображающих 
отладочную деятельность. Наложенные на язык ограничения, касающиеся 
словаря, сложности предложений, содержания текста, вполне уместны и 
незаметны для пользователей. Кроме того, в некоторых случаях возможно 
правильное понимание текста и при выходе за границы подмножества. 
Все случаи нарушения ограничений фиксируются в распечатках, выда- 
ваемых системой. 

Принцип действия системы состоит в трансляции текста на естествен- 
ном языке в текст отладочной программы на языке Тестран. Типовой 
пример входного текста: 


ПРИ ВЫПОЛНЕНИИ КОМАНДЫ (А) ДЕЛАТЬ СЛЕДУ- 
ЮЩИЕ УСЛУГИ: РАСПЕЧАТАТЬ УЧАСТКИ МОЗУ (М, М) 
и (М1, №1); ВЫДАВАТЬ ИЗМЕНЕНИЯ МАССИВА (М2, №2) 
в ДЕСЯТИЧНОМ ФОРМАТЕ; ПЕЧАТАТЬ КОММЕНТАРИЙ 
'ХХХХХХ’ И СОСТОЯНИЕ МАШИНЫ. 

АНАЛОГИЧНЫЕ УСЛУГИ ДЕЛАТЬ В ТОЧКЕ (В) ПРИ 
УСЛОВИИ, ЧТо (К, < =, |. 

В (©) ЗАКОНЧИТЬ `ОТЛАДКУ. 


На выходе этот текст преобразуется в текст вида: 


ТЕСТ В, А, СЕЛЕКТ=7 
ВЫДАЙ МОЗУ,М,М, ФОРМАТ=В 
ВЫДАЙ МОЗУ М1,№1, ФОРМАТ=В 
ВЫДАЙ ИЗМЕНЕНИЯ, М2,№2, ФОРМАТ=Д 
ВЫДАЙ КОММЕНТАРИЙ, 'хХхХХХХ' 
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ВЫДАЙ СОСТОЯНИЕ 
ТЕСТ В,В,‚СЕЛЕКТ=7 
ИДИ ЕСЛИ,К,<= „МО 
ИДИ ПРОГРАММУ , 

МО — ВЫДАЙ МОЗУ, М,М, ФОРМАТ=В 
ВЫДАЙ МОЗУ, М1,№, ФОРМАТ=В 
ВЫДАЙ ИЗМЕНЕНИЯ, М2,№2, ФОРМАТ=Д 
ВЫДАЙ КОММЕНТАРИЙ, 'ХХХХХХ: 
ВЫДАЙ СОСТОЯНИЕ 

ТЕСТ В,С, СЕЛЕКТ=7 
ТЕСТ ВЫКЛЮЧИ 


Как видно, информация об отладочных услугах, точках их выполнения 
и условиях отладки транслируется в управляющие и результативные 
макрокоманды Тестрана, причем из одного входного предложения в общем 


Мерфологичес Синтансичес- Г 
кии днализ ний анапиз | 


у 
Лингвистическии процессор | 
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случае получается несколько макрокоманд. Входной язык допускает ши- 
рокое использование местоимений для ссылок на отладочные услуги и 
различные обстоятельства, что способствует уменьшению объема текста. 
Наряду со словами разговорного языка в тексте используются специаль- 
ные конструкции — данные. Они обрамляются символами (,), ’. В этом 
отношении подмножество для описания отладки подобно, например, языку 
математических текстов. 

1. Функциональная структура системы, мор- 
фологический анализ. СОНЕЯ состоит из четырех блоков, 
осуществляющих морфологический, синтаксический и семантический ана- 
лиз задания и формирование результата на Тестране (сборку) (рис. 1). 
Блоки работают последовательно над всем текстом, и выход одного явля- 
ется входом для следующего; представление текста при этом изменяется 
от исходного до конечного, фиксирующего смысл, что совпадает с идеоло- 
гией моделей СМЫСЛ ‹—» ТЕКСТ [4]. Последовательный характер 
обработки был выбран по техническим причинам из-за ограниченности 
оперативной памяти ЭВМ М-222, хотя известно, что такая методика 
порождает дополнительные трудности, связанные с неоднозначностью 
результатов, получаемых на различных уровнях анализа. 

Блок морфологической обработки идентифицирует слова и другие 
элементы текста (соотносит их с элементами словаря) и выдает морфологи- 
ческие характеристики (род, число, падеж) для изменяемых слов (сущест- 
вительные и прилагательные). Из глагольных форм системой допускаются 
только инфинитивы. Опознание и приписывание характеристик изменяе- 
мым словам основано на их делении на две части: основу и окончание. 
Предполагается, что формы слов образуются путем смены окончаний при 
неизменной основе. В этом случае для опознания слова и определения его 
характеристик достаточно иметь словарь основ слов и таблицы падежных 
окончаний, в которых каждому окончанию ставятся в соответствие значе- 
ния морфологических характеристик. Элементы словаря основ имеют ссыл- 
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ки на соответствующие таблицы падежных окончаний, так что, опознав в 
каком-нибудь слове основу, можно определить его морфологические 
характеристики (в общем случае несколько альтернативных вариантов). 
Флективный характер языка и исключения из правил учитываются по- 
средством внесения в словарь всех отличающихся основ каждого слова и 
указания поправок к таблицам падежвых окончаний. 

2. Синтаксический анализ. Блок синтаксического ана- 
лиза выявляет минимальные составляющие предложения: именные группы 
(существительные с зависимыми словами), предложные группы (пред- 
лог - именная группа), глаголы, условия (отличающиеся от предложных 
групп) и неопознанные конструкции. В результате разбора отдельного 
предложения выдается список таких составляющих. Анализатор не строит 
полного дерева грамматического разбора, не объединяет составляющие в 
более крупные структуры, оставляя эту задачу для семантической обра- 
ботки. В этом отношении блок синтаксического анализа подобен локаль- 
ному анализатору Миллера [5]. Такой подход к синтаксической обработке 
позволяет ограничиться при анализе формальными свойствами терминаль- 
ных элементов, легко обрабатывать свободный порядок слов в предложе- 
нии и уменьшить неоднозначность анализа. Локальная обработка, кроме 
того, не препятствует адаптации к языку. Действительно, в этом случае 
вполне допустимо иметь на входе предложения, для которых система не в 
состоянии провести полного синтаксического анализа, что вынуждает ее 
ограничиваться лишь обработкой отдельных известных частей. 

В качестве аппарата синтаксического анализа используются расширен- 
ные рекурсивные сети переходов [6]. Расширенные сети переходов базиру- 
ются на конечных графах переходов, усиленных рекурсивными дугами, 
позволяющими переходить из состояния в состояние при получении на 
входе целой синтаксической конструкции. Кроме того, с дугами связаны 
условия, которые проверяются каждый раз перед следованием по дуге, 
а также действия, создающие выходные структуры — результат разбора 
предложений. Подобные усложнения исходной регулярной сети дают сред- 
ства, пригодные для анализа любого языка, в том числе и естественного. 
Анализ протекает преимущественно сверху вниз; при этом возможны 
отказы от следования по некоторому пути и возврат к исходным состояни- 
ям для выбора очередной альтернативы. Иначе говоря, сеть получается 
недетерминированной. Однако наличие условий существенно уменьшает 
недетерминированность и увеличивает скорость анализа. 

3. Семантический анализ. Блок семантического анализа 
создает представление значения текста. Он получает результат работы 
синтаксического анализатора и выдает структуры для последующей обра- 
ботки. Эти структуры во внутреннем формализме отображают содержание 
текста в явной форме, причем синонимичные предложения получают оди- 
наковое семантическое представление — Сем. П. Такого рода трансфор- 
мации синтаксических структур в семантические опираются на исполь- 
зование базы знаний — семантической памяти системы, описывающей в 
логико-грамматической форме область отладки. Семантическая память 
строится с использованием падежных грамматик Филлмора [7] и представ- 
ляет систему понятий, свойств, действий, связанных семантическими отно- 
шениями. В основе такого представления знаний лежит описание ситуации 
действительности посредством указания предиката и участников ситуации 
(актантов). Предикат и актанты связаны отношениями — семантическими 
падежами. Принятый в системе способ кодирования значений аналогичен 
глубинно-синтаксическому представлению предложений в лингвистических 
моделях СМЫСЛ «<> ТЕКСТ [4] и совпадает с используемыми в [8] ив 
некоторых других работах. 

Фрагмент семантической сети, описывающий ситуацию, задаваемую 
глаголом СООБЩАТЬ, можно представить схематически с помощью рис. 2. 
На рис. 2 показано действие — СООБЩАТЬ; понятия — УСЛОВИЕ, 
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СВЕДЕНИЕ и др. ; а также семантическиь падежи и связи — время, место 
и пр. Понятия иерархически упорядочены, связь-эжемент соединяет общие 
и частные понятия. Некоторые из понятий имеют характеристики — 
АДРЕС, ВИД, ТЕКСТ. 

Семантическая память СОНЕЯ содержит описание нескольких ситуа- 
ций, задаваемых рядом различных глаголов. В процессе кодирования 
смысла предложения глаголы и именные группы будут отождествляться с 
действиями и понятиями сети и в случае успеха копироваться в Сем. П. 

Соотнесение синтаксической структуры с сетью начинается с выбора 
ситуации. Актанты ситуации становятся кандидатами в значения именных 








СООБЩАТЬ 
Услобце Место Обьент 1 
Время Одбект 
3СЛОВИЕ ВИПОЛНЕНИЕ АЦПУ СВЕДЕНИЯ ОБЪЕМТ 
НОМАНДЬ! 
Хх 
9н & е 
АДРЕС ———_ ДИРЕС —— ПАМЯТЬ 

Хх 

Эн НЫ ВИД —>АА5ИЗИЕНЕНИЕ 2 

Эн ПАМЯТИ 
Хх . 
———_ ТЕЛЕ ——ж—ЛОММЕНТАРИИ 
СОСТОЯНИЕ 
Рис. 2 


групп (ИГ) предложения. Для отождествления именной группы с актантом 
ситуации (понятием) требуется выполнение двух условий. 

Во-первых, лексические способы реализации понятия в тексте должны 
допускать лексику данной именной группы. 

Во-вторых, семантико-синтаксические требования семантической связи, 
идущей к понятию’ от действия, должны удовлетворяться синтаксическим 
оформлением группы. 

Проверка лексики протекает следующим образом. Словам в словаре 
ставятся в соответствие предпочтительные синонимы, символизирующие 
значения слов (предпочтительный синоним — некоторое выделенное из 
группы синонимов слово). С другой стороны, с понятиями в семантической 
сети связываются списки наборов ключевых слов, совпадающих с пред- 
почтительными синонимами. Например, для понятия ИЗМЕНЕНИЯ 
ПАМЯТИ { ключевыми словами будут ИЗМЕНЕНИЕ и ПАМЯТЬ. Пред- 
полагается, что если какой-нибудь набор ключевых слов понятия опознан 
в именной группе (совпадает с предпочтительными синонимами слов груп- 
пы), то это понятие может быть значением данной именной группы. 

Для каждой именной группы строится список кандидатов в значения, 
упорядоченный по числу совпавших ключевых слов. Этот список кандида- 
тов подвергается проверке на выполнение синтаксических требований, 
для чего может рассматриваться объемлющая именную группу составляю- 
щая, предлог предложной группы, падеж главного существительного 
группы и др. Если синтаксические требования выполняются, то соответ- 


1 В СОНЕЯ сложные понятия — ИЗМЕНЕНИЯ ПАМЯТИ и др.— не представ- 
ляются в виде комбинации элементарных смыслов, как того требует модель СМЫСЛ <> 
<-> ТЕКСТ; для целей, преследуемых системой, подробная дезализация не нужна, поэтому 
понятия сети, как правило, выражаются целыми словосочетаниями. 
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ствующий кандидат считается значением ИГ и понятие вместе с семанти- 
ческой связью может копироваться в Сем. П. 

Несколько иначе обстоит дело в случае ИГ, содержащих ссылки. В этой 
ситуации вызывается подпрограмма местоимения, которая в Сем. П. пред- 
шествующих предложений отыскивает значение данной ссылки и включает 
его в Сем. П. текущего предложения. 

После копирования понятия из сети в Сем. П. к полученной копии могут 
присоединяться характеристики, обрабатываемые по эвристическим пра- 
вилам специальными подпрограммами. 

4. Сборщик. Назначение сборщика — генерировать Тестран — 
программу, отвечающую Сем. П. Сборщик читает Сем. П. предложений, 
обрабатывает связи, время, условие, генерируя из них управляющие мак- 
рокоманды. Обрабатывая связи объект, объект 1, сборщик собирает про- 
дуктивные макрокоманды выдачи отладочной информации. Генерация 
макрокоманд протекает в два этапа. Первый этап — это выборка парамет- 
ров из Сем. П., второй — собственно генерация макрокоманды с заданными 
параметрами. Сборщик — единственный блок системы, алгоритмически 
ориентированный на отладку. Блоки морфологической, синтаксической и 
семантической обработки, составляющие лингвистическую часть системы, 
универсальны и с областью отладки связаны преимущественно через 
описания. 

5. Реализация. Система написана на макроавтокоде машины 
М-222 в операционной системе ОС-4/220 М. Объем программ и структур 
данных 3000 исходных предложений. Для описания синтаксического ана- 
лиза и работы со списковыми структурами был разработан язык макроко- 
манд, близкий по возможностям к языку расширенных сетей переходов 
Вудса [6] и языкам обработки списковых структур. При разработке систе- 
мы широко использовались идеи структурного программирования [9]. 

Опытная эксплуатация системы подтвердила правильность основных 
решений, принятых при проектировании, и показала ее пригодность для 
практического использования. 

СОНЕЯ гораздо удобнее в эксплуатации, чем системы с формальными 
языками. Особенно это относится к начинающим пользователям, которые 
практически без изучения языка (но не отладки) могли использовать 
систему. 

Отказы системы (неправильное понимание или непонимание текста) в 
основном обусловливаются незнанием пользователями приемов отладки 
программ и лишь в незначительной части вызывались нарушениями язы- 
ковых ограничений. Необходимо отметить, что статистическая обработка 
таких нарушений позволила несколько расширить язык, увеличив словарь 
и семантическую память системы. Это значит, что наложенные на язык 
синтаксические и другие ограничения вполне уместны и не замечаются при 
практической работе. 

Начинающие пользователи смогли быстро освоить систему и в дальней- 
шем работали без всяких затруднений. Цо мере приобретения навыка 
задание отладки пользователями становилось все строже и лаконичнее, 
приближаясь к текстам на формальном языке отладки. 


Поступила в редакцию 14.ХТ.1977 
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